Temporal sentence grounding (TSG) aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. All existing works first utilize a sparse sampling strategy to extract a fixed number of video frames and then conduct multi-modal interactions with query sentence for reasoning. However, we argue that these methods have overlooked two indispensable issues: 1) Boundary-bias: The annotated target segment generally refers to two specific frames as corresponding start and end timestamps. The video downsampling process may lose these two frames and take the adjacent irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new boundary frames also lead to the reasoning bias during frame-query interaction, reducing the generalization ability of model. To alleviate above limitations, in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN) for TSG, which introduces a siamese sampling mechanism to generate additional contextual frames to enrich and refine the new boundaries. Specifically, a reasoning strategy is developed to learn the inter-relationship among these frames and generate soft labels on boundaries for more accurate frame-query reasoning. Such mechanism is also able to supplement the absent consecutive visual semantics to the sampled sparse frames for fine-grained activity understanding. Extensive experiments demonstrate the effectiveness of SSRN on three challenging datasets.
translated by 谷歌翻译
在狭窄的空间中,基于传统层次自治系统的运动计划可能会导致映射,定位和控制噪声引起碰撞。此外,当无映射时,它将被禁用。为了解决这些问题,我们利用深厚的加强学习,可以证明可以有效地进行自我决策,从而在狭窄的空间中自探索而无需地图,同时避免碰撞。具体而言,基于我们的Ackermann-Steering矩形Zebrat机器人及其凉亭模拟器,我们建议矩形安全区域来表示状态并检测矩形形状的机器人的碰撞,以及无需精心制作的奖励功能,不需要增强功能。目的地信息。然后,我们在模拟的狭窄轨道中基准了五种增强学习算法,包括DDPG,DQN,SAC,PPO和PPO-DISCRETE。经过训练,良好的DDPG和DQN型号可以转移到三个全新的模拟轨道上,然后转移到三个现实世界中。
translated by 谷歌翻译
多代理增强学习(MARL)最近在各个领域取得了巨大的成功。但是,借助黑盒神经网络架构,现有的MARL方法以不透明的方式做出决策,使人无法理解学习知识以及输入观察如何影响决策。我们的解决方案是混合经常性的软决策树(MixRTS),这是一种可解释的新型结构,可以通过决策树的根到叶子路径来表示明确的决策过程。我们在软决策树中引入了一种新颖的经常性结构,以解决部分观察性,并通过仅基于局部观察结果线性混合复发树的输出来估算关节作用值。理论分析表明,混合物在分解中保证具有添加性和单调性的结构约束。我们在一系列具有挑战性的Starcraft II任务上评估MixRT。实验结果表明,与广泛研究的基线相比,我们的可解释的学习框架获得了竞争性能,并提供了对决策过程的更直接的解释和领域知识。
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译
时间句地接地(TSG)是视频理解的关键和基础。虽然现有方法训练具有大量数据的精心设计的深网络,但我们发现他们可以轻松忘记由于偏移数据分布而在训练阶段的很少出现的情况,这影响了模型概括并导致不希望的表现。为了解决这个问题,我们提出了一个内存增强的网络,称为内存引导的语义学习网络(MGSL-net),它学习并记住在TSG任务中的很少出现的内容。具体而言,MGSL-Net由三个主要部件组成:跨模型互动模块,存储器增强模块和异构注意力模块。我们首先将给定的视频查询对与跨模型图卷积网络对齐,然后利用内存模块在域特定的持久存储器中记录跨模板共享语义功能。在培训期间,内存插槽与常见和罕见的案例动态相关,减轻了遗忘问题。在测试中,可以通过检索存储的存储器来提高罕见的情况,从而产生更好的概括。最后,使用异构注意力模块在视频和查询域中集成增强的多模态特征。三个基准测试的实验结果表明了我们对效率和效率的方法的优势,这在整个数据集上显着提高了准确性,而且在罕见的情况下也是如此。
translated by 谷歌翻译
由于其高实用价值,无监督的域自适应人员重新识别受到显着的关注。在过去几年中,通过遵循聚类和FineTuning范式,研究人员建议利用他们的师生框架,以减少不同人重新识别数据集之间的域间差距。受到最近的教师学生框架基于方法的启发,它试图通过使学生从教师直接复制行为来模仿人类学习过程,或者选择可靠的学习材料,我们建议进行进一步的探索,以模仿不同方面的人类学习过程,\ Texit {IE},自适应更新学习材料,选择性地模仿教师行为,分析学习材料结构。探索的三个组件共同合作,构成了一个新的无监督域自适应人重新识别的方法,称为人类学习仿框架。三个基准数据集的实验结果证明了我们提出的方法的功效。
translated by 谷歌翻译
vae或变异自动编码器将数据压缩为潜在属性,并生成不同品种的新数据。基于KL差异的VAE被认为是数据增强的有效技术。在本文中,我们提出使用Wasserstein距离作为潜在属性的分布相似性的量度,并显示其优质的理论下限(ELBO)与在轻度条件下的KL差异相比。使用多个实验,我们证明了新的损失函数具有更好的收敛属性,并生成可以更好地帮助图像分类任务的人工图像。
translated by 谷歌翻译
The past few years have seen rapid progress in combining reinforcement learning (RL) with deep learning. Various breakthroughs ranging from games to robotics have spurred the interest in designing sophisticated RL algorithms and systems. However, the prevailing workflow in RL is to learn tabula rasa, which may incur computational inefficiency. This precludes continuous deployment of RL algorithms and potentially excludes researchers without large-scale computing resources. In many other areas of machine learning, the pretraining paradigm has shown to be effective in acquiring transferable knowledge, which can be utilized for a variety of downstream tasks. Recently, we saw a surge of interest in Pretraining for Deep RL with promising results. However, much of the research has been based on different experimental settings. Due to the nature of RL, pretraining in this field is faced with unique challenges and hence requires new design principles. In this survey, we seek to systematically review existing works in pretraining for deep reinforcement learning, provide a taxonomy of these methods, discuss each sub-field, and bring attention to open problems and future directions.
translated by 谷歌翻译
我们研究了从连续动作空间到离散动作空间的软参与者批评(SAC)的适应性。我们重新访问香草囊,并在应用于离散设置时对其Q值低估和性能不稳定性问题提供深入的了解。因此,我们建议使用Q-CLIP的熵 - 平均Q学习和双平均Q学习来解决这些问题。对具有离散动作空间(包括Atari游戏和大型MOBA游戏)的典型基准测试的广泛实验显示了我们提出的方法的功效。我们的代码在:https://github.com/coldsummerday/revisiting-discrete-sac。
translated by 谷歌翻译
在动态环境中,持续增强学习(CRL)的关键挑战是,随着环境在其生命周期的变化,同时最大程度地减少对学习的信息的灾难性忘记,随着环境在其一生中的变化而变化。为了应对这一挑战,在本文中,我们提出了Dacorl,即动态自动持续RL。 Dacorl使用渐进式上下文化学习了上下文条件条件的策略,该策略会逐步将动态环境中的一系列固定任务群集成一系列上下文,并选择一个可扩展的多头神经网络以近似策略。具体来说,我们定义了一组具有类似动力学的任务,并将上下文推理形式化为在线贝叶斯无限高斯混合物集群的过程,这些过程是在环境特征上,诉诸在线贝叶斯推断,以推断上下文的后端分布。在以前的中国餐厅流程的假设下,该技术可以将当前任务准确地分类为先前看到的上下文,或者根据需要实例化新的上下文,而无需依靠任何外部指标来提前向环境变化发出信号。此外,我们采用了可扩展的多头神经网络,其输出层与新实例化的上下文同步扩展,以及一个知识蒸馏正规化项来保留学习任务的性能。作为一个可以与各种深度RL算法结合使用的一般框架,Dacorl在稳定性,整体性能和概括能力方面具有一致的优势,而不是现有方法,这是通过对几种机器人导航和Mujoco Socomotion任务进行的广泛实验来验证的。
translated by 谷歌翻译